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摘要 

测量 集 ( MeasurementSet , MS ) 文件 是 成 为 射电 天 文 领域 的 重要 存储 文件 格式 ， 并 逐渐 成 为 射 
电 天 文 数据 存储 、 分 析 与 共享 的 标准 格式 ， 得 到 越 来 越 多 的 天 文 数据 处 理 软件 如 CASA、WSCLEAN 
等 的 支持 ， 在 ALMA、LOFAR 等 诸多 射电 望远镜 系统 中 应 用 。 但 长 期 以 来 ，MS 格式 在 国内 应 用 较 少 ， 
技术 规范 文档 非常 缺乏 。 本 文 结合 SKA 工程 桥接 阶段 相关 工作 需要 ,对 MS 格式 的 基本 概念 、 目 录 结 
构 和 字段 设计 进行 了 介绍 , 在 此 基础 上 讨论 了 利用 python-casacore 调用 底层 casacore 生成 MS 文件 
的 方法 ,并 将 此 功能 封装 到 当前 SKA 的 算法 参考 库 ( Algorithm Reference Library, ARL ) 。 文 中 给 出 
了 利用 ARL 仿真 观测 生成 MS 文件 的 实例 ,并 通过 CASA 软件 对 生成 的 MS 文件 成 像 ， 经 过 结果 上 比 
对 , 验证 了 MS 文件 的 正确 性 。 本 文 的 工作 为 SKA 后 续 的 成 像 实验 、 观 测 模拟 和 文件 存储 都 提供 了 关 
键 的 保障 ， 在 满足 SKA 工程 桥接 阶段 工作 需要 的 同时 ， 也 为 国内 外 射电 天 文 数据 处 理工 作 提 供 了 参考 。 
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我 国 的 射电 天 文 在 近 十 年 来 有 了 飞跃 的 发 展 ，21CMA 望远镜 "阵列 带动 了 国内 低频 射电 天 文 研究 ， 
国内 的 FAST 望远镜 ” 曾 作 为 世界 上 最 大 的 射电 望远镜 平方 公里 阵 (Square Kilometre Array, SKA) 的 
候选 方案 之 一 ， 后 来 独立 发 展 成 世界 上 最 大 的 单口 径 望 远 镜 。 国 内 其 它 射 电 望 远 镜 阵列 包括 建 于 新 疆 
的 天 籁 阵列 ”"、 建 于 内 蒙古 的 明 安 图 太阳 频谱 日 像 仪 (MUSER)“ 以 及 中 国 VLBI 网 ， 这 些 射电 干涉 阵列 
在 天 文 研究 、 数 据 处 理 、 经 验 积 累 、 人 才 培 养 等 方面 都 做 出 了 重要 贡献 ， 也 为 中 国 参加 SKA RETK 
质 性 基础 。 

天 文 射 电 数据 的 存储 是 射电 天 文 观测 的 基础 要 求 。 长 期 以 来 ，FITS 文件 一 直 是 天 文 数据 存储 的 标 
准 格式 ， 针 对 射电 数据 存储 ， 在 FITS 基础 上 发 展 出 了 UVFITS 格式 与 FITSIDI 格式 等 。 近 年 来 ， 测 量 
集 (MeasurementSet, MS) 文件 应 用 越 来 越 广 ， 已 经 成 为 射电 天 文 领域 的 重要 存储 文件 格式 。 并 逐渐 
成 为 射电 天 文 数据 分 析 的 标准 格式 ， 被 CASA (the Common Astronomy Software Applications package, 
https://casa.nrao.edu/) 、WSCLEAN ”等 天 文 数据 处 理 软件 广泛 支持 。 国 内 测量 集 格式 文 件 应 用 相对 较 少 ， 
中 、 英 文 资料 较 少 。 针 对 射电 数据 的 需求 ， 国 内 射电 望远镜 往往 都 是 根据 各 自 接收 机 的 特点 ， 自 行 定 
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义 相应 的 原始 数据 存储 格式 。 如 MUSER 采用 裸 二 进 制 的 方式 保存 观测 文件 以 大 幅度 降低 存储 空间 。 
在 需要 进行 数据 交换 时 ， 通 过 格式 转换 软件 改 存 为 UVFITS 或 FITSIDI 格 式 。 

随 着 SKA 桥接 阶段 的 开展 ， 本 文 作者 在 参与 桥接 阶段 的 工作 中 负责 进行 测试 与 仿真 ， 为 了 与 划 
它 主 流 天 文 数据 处 理工 具 相 对 接 ， 不 可 避免 地 遇 到 了 如 何 生成 MS 文件 的 问题 。 因 此 ， 本 文 结合 实际 
开发 需求 ， 系 统 讨 论 了 利用 Python 语言 和 python-casacore 实现 MS 文件 的 生成 ， 对 后 续 工 作 和 其 它 射 
望远镜 数据 存储 与 共享 有 一 定 的 参考 作用 。 


m 


一 、 测 量 集 文件 的 概念 与 定义 


1.1 MeasurementSet 文件 的 基本 概念 


测量 集 文件 是 一 个 遵从 射电 干涉 测量 方程 ( Radio Interferometer Measurement 
Equation, RIME®) 的 文件 格式 ， 能 够 保存 校准 前 的 射电 天 文 数据 。 测量 集 文件 的 设计 标准 发 布 后 ， 
CASA 团队 和 欧洲 VLBI 网 等 团队 的 多 个 天 文 软件 开发 小 组 进行 了 代码 实现 。 由 于 CASA 采用 测量 方 
程 作为 其 基本 校准 方案 ，MS 文件 很 自然 地 成 为 CASA 软件 射电 观测 数据 的 存储 标准 。 随 着 CASA 成 
为 ALMA 和 VLA 的 指定 数据 处 理 分 析 软 件 包 "”"，MS 也 自然 地 成 为 ALMA 和 VLA 数据 分 析 中 的 缺 省 
数据 格式 。ALMA 和 VLA 原始 数据 存储 格式 为 ASDM 和 SDM， 因 此 也 都 开发 了 相关 软件 ， 实 现 从 
ASDM/SDM 数据 格式 转换 为 MS 格式 。 
= MS 文件 实际 上 是 一 个 关系 数据 库 ， 其 格式 涵盖 了 射电 天 文学 中 所 有 可 以 想到 的 用 例 ， 无 论 是 单 碟 、 
= 还 是 简单 的 几 个 天 线 组 成 的 射电 干涉 仪 ， 力 至 数 百 上 千 天 线 的 大 型 射电 干涉 仪 。 

MS 借鉴 了 关系 型 数据 库 的 建 模 方 法 来 降低 数据 的 见 余 ， 即 构建 主键 与 外 键 的 方式 ， 把 多 次 出 现 的 
数据 (如 天 线 数据 等 ) 放 入 单独 的 数据 库 表 CANE) 中 ， 然 后 在 数据 库 的 主体 部 分 〈 即 主 表 ) 中 进 
行 建立 相应 的 索引 (主键 ) ， 实 现 对 子 表 数 据 的 引用 外 键 〉。 在 有 两 层 子 表 的 情况 下 ， 第 一 层 由 主 
表 引 用 ， 第 二 层 由 第 一 层 引 用 ， 即 可 以 通过 子 表 引用 其 他 子 表 。 

MS 文件 生成 时 ， 大 部 分 数据 ， 包 括 干 涉 得 到 的 可 见 度 函 数 和 /或 单 天 线 总 功率 测量 值 及 其 时 间 惟 
会 保存 在 主 表 ， 而 大 部 分 元 数据 (Meta Data) 存放 在 二 级 子 表 中 。 主 表 中 一 般 需 要 包括 的 列 是 DATA 
(干涉 数据 ) 或 FLOAT_DATA 纯 单 碟 数据 ， 列 ， 根 据 不 同 的 射电 望远镜 ， 这 两 列 中 的 一 列 必须 存在 。 


1.2 MS v2.0 文件 结构 


CASA 软件 中 采用 MeasurementSet 第 二 版 本 “作为 数据 格式 标准 。 实 际 ， MeasurementSet 集 在 
© AIPS ++ Note 191 中 就 被 正式 定义 。 在 本 文中 ， 为 了 确保 与 CASA 软件 的 数据 兼容 性 ， 也 完成 采用 了 
MeasurementSet 第 二 版 本 为 基础 标准 。 以 下 分 析 与 讨论 均 按 该 版 本 规范 开展 。 


1.2.1 子 表 结构 
CASA 使 用 的 MeasurementSet 的 表格 结构 见 表 1。 每 个 MS 文件 ， 一 定 要 有 一 个 主 表 MAIN) K, 


表 中 包含 许多 数据 列 和 各 种 子 表 中 的 键 。 每 个 子 表 中 至 多 有 一 个 。 子 表 存 储 为 MS 的 关键 字 ， 所 有 定 
义 的 子 表 在 下 表 中 列 出 。 可 选 子 表 以 斜体 和 括号 显示 。 在 实际 应 用 中 ， 非 可 选 子 表 一 定 要 在 数据 生成 
时 生成 ， 但 部 分 子 表 可 以 没有 内 容 。 


K 1. MS V2 版 本 的 表格 结构 


2 https://casacore.github.io/casacore-notes/191.pdf 


Table.1 Table structure for MS V2 version 


子 表 名 称 


SPECTRAL_WINDOW_ID 


se Sov hala 


SOURCE_ID, SPECTRAL_WINDOW_ID, 
TIME 
SPECTRAL_WINDOW_ID 


态 信息 STATE_ID 
FEED_ID, ANTENNA_ID, TIME 
S25 BRS AE as IV, 站 
系统 校准 SPECTRAL_WINDOW_ID 
(WEATHER) 各 天 线 气 象 信息 ANTENNA_ID, TIME 


显然 ， 与 FITS 文件 相 比 ，MS 的 格式 要 复杂 很 多 。 在 实际 应 用 中 ， 根 据 射电 望远镜 的 不 同 观测 数 
据 需 求 ， 生 成 相应 的 子 表 并 存 入 相关 的 数据 ， 最 终 构 成 一 个 完整 的 MS 文件 目录 树 结构 ， 原 则 上 只 要 
是 非 可 选 表 都 需要 生成 。 限 于 篇 幅 的 限制 ， 我 们 在 下 节 中 以 主 表 的 结构 来 分 析 MS 格式 的 相关 字段 要 
求 与 数据 类 型 。 其 它 表 的 结构 直接 查看 MS 技术 规范 。 


1.2.2 MAIN table: Data, Coordinates and Flags 


主 表 (MAIN TABLE) MS 文件 中 必须 存在 的 一 个 表 。 在 数据 存储 上 ，MS 格式 与 FITS 格式 基本 
类 似 ， 需 要 保存 的 数据 类 型 也 包括 整 型 (int)， 浮 点 (float)， 双 精度 (double)、 字 符 串 (string) 等 。 
与 FITS 文件 的 头 定 义 相 类 似 ，MS 文件 中 ， 每 个 表 有 相应 的 字段 设计 的 概念 ， 但 更 为 复杂 ， MS 
的 字段 设计 分 为 三 种 情况 : 
1、 关键 字 : MS_VERSION， 用 来 标识 所 保存 的 MS 文件 遵从 哪 一 个 版 本 的 规范 。 


2、 键 (key): 相当 于 关系 型 数据 库 当 


这 些 值 的 定义 与 写 入 应 完全 按照 MS 格式 的 要 求 来 进行 。 


3. 非 键 属性 : 根据 实际 需要 定义 的 某 些 重要 


WER 


MS 格式 ， 本 质 就 是 要 明确 各 个 字段 的 属性 与 格式 要 求 ， 写 入 正确 


1.3 MS 文件 存放 结构 


一 般 关 系 型 数据 库 的 存储 都 具有 库 文 件 与 索引 文件 两 大 关键 部 分 。 但 
保存 的 方法 ， 各 个 表 都 以 CASA 表格 式 存储 。 这 意味 着 一 
且 整 个 MS 文件 也 不 是 单个 文件 , 而 是 一 个 目 


采用 多 级 目录 多 文件 


MS 文件 的 吉 构 可 以 看 作 昌 


HZ% H 


录 树 。 


中 的 主键 ， 用 来 和 子 表 进 行 关联 。 如 TIME 给 出 了 观测 时 刻 。 


参数 或 属性 。 
的 存储 与 主 表 的 存储 完全 类 似 ， 也 有 各 自 规定 的 相应 保留 字 ， 键 值 和 参数 。 要 成 功 生 成 
的 数值 并 给 出 正确 的 单位 。 


MS 格式 有 显著 的 不 同 ， 它 


个 表格 包含 了 多 个 文件 ， 


录 构 成 。 一 般 来 说 ， 主 表 位 于 第 


第 二 级 


录 下 。 


众所周知 ， 从 AIPS++ 发 


展 到 CASA 后 ，CASA 软 


一 级 目录 下 ， 均 包含 实际 数据 存放 位 置信 息 的 table.info, table.f0, table.fl 4 


基于 Python-Casacore 的 MS 生成 方法 


个 的 开发 采用 


级 目录 下 ， 各 个 子 表 位 于 


L ZS 32! 


其 主要 代码 来 自 于 C/C++， 然 后 主要 的 月 
分 合成 了 casacore 软件 ， 也 就 
天 文 数据 处 理 软件 包 ， 也 是 唯一 实 

为 了 能 够 实现 在 Pyth 


cE SM 


是 所 谓 的 CASA 核心 库 。 可 以 这 么 


on 语言 中 对 casacore 功 


casacore 核心 函数 库 的 调用 ， 虽 然 也 有 相应 的 文档 介 


日 户 接口 与 调用 部 分 基本 上 全 部 采用 


的 软件 包 。 
» python-casacore 


， 但 如 何 实现 MS 格式 


S 文件 的 读 写 操作 


了 多 计算 机 语言 =] 混合 


合 编程 的 方法 ， 
Python 来 实现 ，C/C++ 部 


说 ，casacore 是 目前 最 为 完整 的 射电 


被 开发 出 来 ， 用 以 实现 对 


的 写 入 并 没有 详细 的 文档 。 


为 此 ， 在 大 量 实验 与 验证 的 基础 上 ， 我 们 分 析 了 Ph casacore oo 并 对 这 些 函数 中 操 


作 数 据 表 的 函数 以 及 参数 类 型 进 
输出 对 象 ， 并 将 代码 集成 到 了 ARL 中 ， 


2.1 Python-casacore 的 表 操 作 


行 了 分 析 。 


‘g 
通 


步 封装 完成 了 一 


个 完整 的 MS 格式 


ime 


地 调用 这 一 wa 可 以 完 


整地 实现 MS 文件 生成 。 


python-casacore 是 casacore 的 Python 封装 接口 ， 针 对 MS 文件 的 数据 操作 ， 主 要 提供 了 如 下 函数 : 


K 2. python-casacore 中 的 相关 函数 
Table 2. The MS related functions of python-casacore 
序号 对 象 /函数 名 基本 功能 
1 Table 打开 MS 数据 表 文 件 
2 putinfo 存放 信息 
3 putkeyword 存放 数据 字段 
4 putcol 存放 一 列 数 据 
5 putcell 存放 一 个 数据 
6 tableutil.makearrcoldesc 定义 列 的 描述 ， 数 据 为 数组 形式 
7 tableutil.makescacoldesc 定义 列 字 段 ， 数 据 为 单一 数据 
8 tableutil.maketabdesc 创建 表 结 构 
9 close 关闭 文件 
2.2 数据 子 表 生 成 


3 https://github.com/casacore/python-casacore. 


等 文件 。 


利用 表 2 中 的 方法 ， 可 以 生成 一 个 完整 的 子 表 ， 在 表 3 中 给 出 了 一 个 生成 MS 文件 实例 的 程序 流程 


mM. 


图 ， 用 以 说 明 如 何 应 用 python-casacore 来 生成 相应 的 表 和 填 入 数据 。 
表 3 代码 段 示 意 与 说 明 
Table 3. The demonstration codes f 
编号 | 程序 代码 说 明 
1 coll = tableutil.makearrcoldesc('UVW', 0.0, 1, A coll 列 ， 定 义 
comment= Vector with uvw coordinates (in meters)', keywords={' QuantumUnits: | 字段 为 uvw， 存 值 为 
['m', 'm', 'm'], "MEASINFO': {'type': 'uvw', Ref': 'ITRF'} }) 浮 点 类 型 ， 本 列 一 行 
需要 存放 数组 
2 col2 = tableutil.makearrcoldesc(FLAG,', False, 2, comment='The data flags, array 创建 co12 列 ， 字 段 
of bools with same shape as data’) 为 FLAG， 类 型 为 布尔 
3 desc = tableutil.maketabdesc([coll, col2, col6, col7]) 创建 表 字 段 定 义 desc 
4 tb = table("%s" % self.basename, desc, nrow=0, ack=False) 创建 表 ， 按 desc Æ 
成 字段 
5 for j in range(nBand): 写 入 数据 ， 重 复 次 数 
AS BILAN 
fg = numpy.zeros((nBL, self.nStokes, self.nchan), dtype=numpy.bool) 为 波段 个 数 
tb.putcol(UVW', uvwList, i, nBL) 
tb.putcol('FLAG’, fg.transpose(0, 2, 1), i, nBL) 
=. MS 文件 生成 
算法 参考 库 (ARL) 是 由 射电 天 文科 学 家 Tim Cornwell 领头 开发 的 射电 干涉 阵 数据 处 理 算 法 验证 
库 ， 用 以 为 后 续 SKA 的 数据 处 理 提供 算法 验证 。 


以 保存 ARL 数据 仿真 后 的 结果 ， 
果 。 最 终 封 装 后 的 MSL 文件 类 为 WriteMS， 类 图 如 图 1 所 示 。 


在 参与 桥接 工作 期 间 ， 我 们 根据 ARL 开发 的 需要 ， 以 ARL 为 基础 进发 了 MS 文件 输出 模块 ， 用 
= 第 用 天 文 数据 处 理 软件 的 数据 共享 ， 验 证 ARL 生成 结 


并 实现 与 其 它 常 


* https://github.com/SKA-ScienceDataProcessor/algorithm-reference-library 
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‘© processing_components.visibility.msv2.WriteMs 

m _ init__(self, filename, ref_time=0.0, source_name = None, frame ='ITRF', verbose=False, memmap=None, if_delete=False) 
m set_geometry(self, site_config, antennas, bits=8) 

m add_data_set(self, obstime, inttime, baselines, visibilities, pol='XX', source=None, phasecentre=None, uvw=None) 
m write(self) 

m close(self) 

m _write_antenna_table(self) 

m _write_polarization_table(self) 

m _write_observation_table(self) 

m _write_spectralwindow_table(self) 

m _write_main_table(self) 

m _write_misc_required_tables(self) 


二 basename 

® siteName 

“f _sourceTable 

® nant 

'® site_config 

‘® _STOKES_CODES 


1. WriteMs 类 图 
Figure 1. The class diagram of WriteMs 


在 实际 应 用 中 ， 用 户 只 需要 简单 地 import 软件 包 ， 然 后 传 入 相应 的 可 见 度 函数 数据 ， 最 终 就 可 以 
生成 完整 的 MS 文件 ， 在 ARL 的 代码 中 我 们 给 出 了 一 个 完整 的 实现 代码 (test_export_ms_arl.py) , 
下 面 图 2 中 用 一 个 模拟 生成 MS 文件 实例 的 程序 框图 来 对 MS 文件 的 写 入 和 生成 进行 说 明 。 


输入 频带 宽度 输入 相位 中 心 
根据 上 述 实 际 参 数 生 成 可 见 度 函 数 数 据 
组 《create_blockvisibility 》 


考虑 宽 视 场 成 像 ， 根 据 给 定 的 参数 
(fects,wprojection_planes=) 预测 宽 
视 场 成 像 参 数 ， 给 出 合适 的 cellsize 大 小 


村 已 有 M31 星 系 成 像 结 果 进 行 
RURE, FATURAR 


将 采样 信息 合并 到 对 应 的 可 见 
度 函 数 


根据 可 见 度 函 数 等 观测 信息 ， 调 用 
export_blockvisility_to_ms 生成 MS 文 件 


2. MS 格式 文件 生成 实例 流程 图 


Figure2. MS format file generation example flow chart 


MSN 


四 、 结 果 测 试 与 验证 


为 了 验证 MS 文件 是 否 写 入 正确 ， 最 简单 的 方法 就 是 先 对 原本 的 MS 格式 观测 数据 进行 读 取 ， 再 用 
本 文中 的 方法 重 EE 新 将 数据 写 入 生成 一 个 新 的 MS 格式 文件 ， 利 用 CASA 软件 直接 对 新 生成 的 MS 数据 做 成 


像 处 理 ， 


并 将 成 像 结果 与 原本 的 观测 结果 作对 比 。 因 为 CASA 软件 对 MS 数据 在 读 取 中 有 较 多 的 校 验 操 


= 


作 ， 因 此 通过 了 CASA 的 处 理 就 意味 着 MS 的 各 个 子 表 和 字段 是 合理 的 。 昌 然 在 部 分 字段 上 的 取 值 可 能 


与 真实 情 六 


L 有 区 别 ， 但 这 不 会 影响 成 像 的 处 理 。 具 体操 作 如 下 表 所 示 : 


表 4. CASA 操作 命令 
Table 4. The commands for imaging in CASA 


Executing: 


CASA <3>: 
CASA <4>: 
CASA <5>: 


default tclean 
vis='/Users/f.wang/dev/algorithm-reference-library/data/vis/Test_outpu: t.ms 
cell="74arcsec' 

: imsize=512 

: imagename='Test_output 
: niter=0 


1 


1 


tclean() 


Figure 3. 


Test_output.image—raster 


图 3， 左 图 为 M31 的 观测 图 像 ， 右 边 为 利用 CASA 处 理 对 应 的 MS 文件 所 获得 的 结果 


shows the observation image of M31 on the left and the result of processing the 
corresponding MS file with CASA on the right. 


图 3 给 出 了 CASA 读 取 MS 文件 并 进行 成 像 得 到 的 脏 图 〈 右 图 ) SREM TAI AB ERD ， 


| 对 比 发 现 ， 


基于 本 文 得 到 的 MS 文件 成 像 结 果 与 实际 图 像 相 一 致 ， 验 证 了 MS 文件 的 正确 性 。 


五 、 结论 


虽然 测量 集 文件 规范 制定 较 早 ， 但 在 我 国 的 射电 领域 应 用 较 少 。 一 方面 是 因为 MS 文件 会 占用 较 
多 的 空间 ， 男 一 方面 是 生成 MS 文件 一 直 依 赖 于 casacore 这 一 底层 软件 包 ， 开 发 比较 困难 。 因 此 ， 本 文 
结合 SKA 工程 建设 的 需要 ， 系 统 地 研究 与 讨论 了 MS 文件 的 定义 、 结 构 与 字段 设计 以 及 利用 Python- 
casacore 对 数据 的 写 入 。 同 时 ， 最 后 的 实验 表明 了 本 文 所 生成 的 MS 文件 内 容 的 正确 性 。 目 前 所 有 相关 
代码 已 经 集成 到 ARL 软件 中 ， 所 有 的 源 代 码 均 可 以 在 https://github.conVSKA- 
ScienceDataProcessor/algorithm-reference-library F FR. WAKE, KLTE ARL 的 开发 过 程 中 起 
到 了 关键 的 作用 ， 为 后 续 的 SKA 数据 模拟 与 文件 存储 提供 了 保障 ， 也 对 其 他 射电 天 文 数据 的 MS 文件 
生成 有 较 好 的 参考 作用 。 
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Abstract 

Measurement Set (MS) file has been an important storage file format and is gradually becoming the standard 
format for data analysis of radio astronomy. More and more astronomical data processing software such as 
CASA and WSCLEAN fully support the MS standard, which lead to MS standard had been widely used in 
data storage for almost all modern radio telescopes. However the MS format was rarely used in China because 
of the lack of related technical documents. In this paper, we introduce the basic concept of MS format 
including directory structure and field design. A method of generating a comprehensive MS file by using 
Python-casacore package is further discussed in detail. Meanwhile, an example of generating MS file with the 
visibility functions generated by ARL simulation observation is given. The imaging result using CASA shows 
that the method presented in this study is correct and can meet the practical application requirements. This 
method not only satisfies the requirements of the SKAO during engineering bridging stage, but also provides a 
good reference to the community of radio astronomy data processing in China. 


Keywords: Measurement Set (MS) files; Python-casacore 


